我们为旨在降低公平性的对抗神经网络(GNN)的对抗性攻击(GNN)的存在和有效性提供了证据。这些攻击可能不利基于GNN的节点分类中的特定节点子组,其中基础网络的节点具有敏感的属性,例如种族或性别。我们进行了定性和实验分析,以解释对抗链接注射如何损害GNN预测的公平性。例如,攻击者可以通过在属于相反子组和相反类标签的节点之间注入对抗性链接来损害基于GNN的节点分类的公平性。我们在经验数据集上的实验表明,对抗公平性攻击可以显着降低GNN预测的公平性(攻击是有效的),其扰动率较低(攻击是有效的),并且没有明显的准确性下降(攻击是欺骗性的)。这项工作证明了GNN模型对对抗公平性攻击的脆弱性。我们希望我们的发现在社区中提高人们对这个问题的认识,并为GNN模型的未来发展奠定了基础,这些模型对这种攻击更为强大。
translated by 谷歌翻译
Eye movements are known to reflect cognitive processes in reading, and psychological reading research has shown that eye gaze patterns differ between readers with and without dyslexia. In recent years, researchers have attempted to classify readers with dyslexia based on their eye movements using Support Vector Machines (SVMs). However, these approaches (i) are based on highly aggregated features averaged over all words read by a participant, thus disregarding the sequential nature of the eye movements, and (ii) do not consider the linguistic stimulus and its interaction with the reader's eye movements. In the present work, we propose two simple sequence models that process eye movements on the entire stimulus without the need of aggregating features across the sentence. Additionally, we incorporate the linguistic stimulus into the model in two ways -- contextualized word embeddings and manually extracted linguistic features. The models are evaluated on a Mandarin Chinese dataset containing eye movements from children with and without dyslexia. Our results show that (i) even for a logographic script such as Chinese, sequence models are able to classify dyslexia on eye gaze sequences, reaching state-of-the-art performance, and (ii) incorporating the linguistic stimulus does not help to improve classification performance.
translated by 谷歌翻译
情感语音分析是一个持续的研究主题。在该领域的一个相对较新的问题是对声乐爆发的分析,即笑声或叹息等非语言发声。解决情感声音爆发分析的当前最新方法主要基于WAV2VEC2或Hubert功能。在本文中,我们研究了WAV2VEC后继数据2VEC与多任务学习管道的使用,以一次解决不同的分析问题。为了评估我们有效的多任务学习体系结构的性能,我们参与了2022 ACII情感声音爆发挑战,这表明我们的方法在三个不同的子任务中大大胜过基线。
translated by 谷歌翻译
反事实思维领域的解释机制是可解释人工智能(XAI)的广泛使用的范式,因为它们遵循一种自然的推理方式,即人类熟悉。但是,该领域的所有常见方法都是基于传达有关特征或特征的信息,这些信息对于AI的决定尤为重要。我们认为,为了充分理解决定,不仅需要有关相关功能的知识,而且对无关信息的意识也很大程度上有助于创建用户的AI系统心理模型。因此,我们介绍了一种解释AI系统的新方法。我们称之为另一个事实解释的方法是基于显示AI输入的无关特征的替代现实。通过这样做,用户直接看到输入数据的哪些特征可以随意更改而不会影响AI的决定。我们在广泛的用户研究中评估了我们的方法,表明它能够为参与者对AI的理解做出重大贡献。我们表明,与既定的反事实解释方法相比,改变的解释适合传达对AI推理不同方面的理解。
translated by 谷歌翻译
识别面部视频的连续情绪和动作单元(AU)强度需要对表达动态的空间和时间理解。现有作品主要依赖2D面的外观来提取这种动态。这项工作着重于基于参数3D面向形状模型的有希望的替代方案,该模型解散了不同的变异因素,包括表达诱导的形状变化。我们旨在了解与最先进的2D外观模型相比,在估计价值和AU强度方面表现性3D面部形状如何。我们基准了四个最近的3D面对准模型:Expnet,3DDFA-V2,DECA和EMOCA。在价值估计中,3D面模型的表达特征始终超过以前的作品,并在SEWA和AVEC 2019 CES CORPORA上的平均一致性相关性分别为.739和.574。我们还研究了BP4D和DISFA数据集的AU强度估计的3D面形状如何执行,并报告说3D脸部功能在AUS 4、6、10、12和25中与2D外观特征相当,但没有整个集合。 aus。为了理解这种差异,我们在价值和AUS之间进行了对应分析,该分析指出,准确的价值预测可能仅需要少数AU的知识。
translated by 谷歌翻译
环境场景的重建对于自动机器人应用引起了极大的兴趣,因为必须准确表示环境以确保与机器人的安全互动。同样重要的是,确保机器人与其控制器之间的可靠通信也至关重要。大型智能表面(LIS)是一项由于其通信能力而被广泛研究的技术。此外,由于天线元件的数量,这些表面是无线电传感的有力解决方案。本文提出了一种新颖的方法,可以将LIS在其区域散布的散射器建造的室内环境中获得的无线电环境图转换为室内环境的平面图。利用了基于最小二乘(LS)的方法,U-NET(UN)和条件生成对抗网络(CGAN)来执行此任务。我们表明,可以使用本地和全球测量值正确重建平面图。
translated by 谷歌翻译
时间序列对齐方法要求高度表达,可区分和可逆的翘曲功能,这些功能保留时间拓扑,即差异性。可以通过普通微分方程(ODE)控制的速度场的集成来产生差异翘曲函数。基于梯度的优化框架包含差异转换需要根据模型参数(即灵敏度分析)计算微分方程解决方案的衍生物。不幸的是,深度学习框架通常缺乏自动差异兼容的灵敏度分析方法。和隐式功能,例如ODE的解决方案,都需要特殊护理。当前的解决方案吸引了伴随灵敏度方法,临时数值求解器或Resnet的Eulerian离散化。在这项工作中,我们在连续的分段(CPA)速度函数下呈现ODE溶液及其梯度的封闭式表达。我们提出了对CPU和GPU结果的高度优化实现。此外,我们在几个数据集上进行了广泛的实验,以验证模型对时间序列关节对齐的看不见数据的概括能力。结果在效率和准确性方面表现出显着改善。
translated by 谷歌翻译
自动识别面部和声音的明显情绪很难,部分原因是各种不确定性来源,包括输入数据和机器学习框架中使用的标签。本文介绍了一种不确定性感知的视听融合方法,该方法量化了对情绪预测的模态不确定性。为此,我们提出了一个新颖的融合框架,在该框架中,我们首先通过视听时间上下文向量学习潜在分布,然后限制单峰潜在分布的方差向量,以便它们表示每种模式的信息量,以提供W.R.T.情绪识别。特别是,我们对视听潜在分布的方差向量施加了校准和序数排名约束。当经过良好校准时,将模态不确定性得分表明它们的相应预测可能与地面真实标签有多大不同。排名良好的不确定性得分允许在模式中对不同框架进行顺序排名。为了共同施加这两种约束,我们提出了软马克斯分布匹配损失。在分类和回归设置中,我们将不确定性感知的融合模型与标准模型 - 静态融合基线进行了比较。我们对两个情绪识别语料库(AVEC 2019 CES和IEMOCAP)的评估表明,视听情绪识别可以从良好的和良好的潜在不确定性度量中受益匪浅。
translated by 谷歌翻译
求职面试通常是高风险的社交场所,需要专业和行为技巧才能令人满意。专业的工作面试培训师会根据公共标准提供有关显示行为的教育反馈。对于提高工作面试所需的行为技能,这种反馈可能会有所帮助。产生此类反馈的技术方法可能是工作面试培训的嬉戏且低调的起点。因此,我们通过基于生成的对抗网络(GAN)的方法扩展了交互式虚拟工作面试培训系统,该方法首先检测到行为弱点并随后产生个性化的反馈。为了评估生成的反馈的有用性,我们使用求职培训系统的模型进行了一项混合方法试点研究。总体研究结果表明,基于GAN的产生的行为反馈很有帮助。此外,参与者评估反馈将改善他们的工作面试绩效。
translated by 谷歌翻译
The compositionality and sparsity of high-throughput sequencing data poses a challenge for regression and classification. However, in microbiome research in particular, conditional modeling is an essential tool to investigate relationships between phenotypes and the microbiome. Existing techniques are often inadequate: they either rely on extensions of the linear log-contrast model (which adjusts for compositionality, but is often unable to capture useful signals), or they are based on black-box machine learning methods (which may capture useful signals, but ignore compositionality in downstream analyses). We propose KernelBiome, a kernel-based nonparametric regression and classification framework for compositional data. It is tailored to sparse compositional data and is able to incorporate prior knowledge, such as phylogenetic structure. KernelBiome captures complex signals, including in the zero-structure, while automatically adapting model complexity. We demonstrate on par or improved predictive performance compared with state-of-the-art machine learning methods. Additionally, our framework provides two key advantages: (i) We propose two novel quantities to interpret contributions of individual components and prove that they consistently estimate average perturbation effects of the conditional mean, extending the interpretability of linear log-contrast models to nonparametric models. (ii) We show that the connection between kernels and distances aids interpretability and provides a data-driven embedding that can augment further analysis. Finally, we apply the KernelBiome framework to two public microbiome studies and illustrate the proposed model analysis. KernelBiome is available as an open-source Python package at https://github.com/shimenghuang/KernelBiome.
translated by 谷歌翻译